Sélection topologique de variables dans un contexte de discrimination
نویسندگان
چکیده
Résumé. En apprentissage automatique, la présence d’un grand nombre de variables explicatives conduit à une plus grande complexité des algorithmes et à une forte dégradation des performances des modèles de prédiction. Pour cela, une sélection d’un sous-ensemble optimal discriminant de ces variables s’avère nécessaire. Dans cet article, une approche topologique est proposée pour la sélection de ce sous-ensemble optimal. Elle utilise la notion de graphe de voisinage pour classer les variables par ordre de pertinence, ensuite, une méthode pas à pas de type ascendante "forward" est appliquée pour construire une suite de modèles dont le meilleur sous-ensemble est choisi selon son degré d’équivalence topologique de discrimination. Pour chaque sous-ensemble, le degré d’équivalence est mesuré en comparant la matrice d’adjacence induite par la mesure de proximité choisie à celle induite par la "meilleure" mesure de proximité discriminante dite de référence. Les performances de cette approche sont évaluées à l’aide de données simulées et réelles. Des comparaisons de sélection de variables en discrimination avec une approche métrique montrent une bien meilleure sélection à partir de l’approche topologique proposée.
منابع مشابه
Choix d'une mesure de proximité discriminante dans un contexte topologique
Résumé. Les résultats de toute opération de classification ou de classement d’objets dépendent fortement de la mesure de proximité choisie. L’utilisateur est amené à choisir une mesure parmi les nombreuses mesures de proximité existantes. Or, selon la notion d’équivalence topologique choisie, certaines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche de co...
متن کاملCongenital Cyst and Emphysema of the Lung
Les auteurs rapportent chez deux nourrissons, l'etude anatomo-clinique d'un cas de kystes alveolaires multiples,et d'un cas d'emphyseme lobaire congenital bilateral.Le troisieme cas concerne un kyste bronchog6nique du poumon gauche,decouvert a l'autopsie d'un nouveau-ne. Dans le quatrieme cas,un emphyseme geant du lobe superieur gauche,decouvert dans un contexte infectieux,a l'age de neuf mois,...
متن کاملSélection par entropie de descripteurs textuels pour la catégorisation de documents XML
Dans le contexte de la catégorisation de documents, la sélection des descripteurs est une étape de pré-traitement importante qui permet non seulement de réduire la taille de l’index, mais aussi d’améliorer les performances des classifieurs. Parmi les approches utilisées pour construire un sous-ensemble de l’index, on peut distinguer d’une part, les méthodes de réduction de dimensions qui génère...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملSélection de variables non supervisée sous contraintes hiérarchiques
Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un cr...
متن کامل